对象检测和细分被广泛用于计算机视觉应用中,但是诸如Yolo系列的传统模型虽然有效而准确,但受预定义的类别的限制,从而阻碍了开放的SCE-Narios的适应性。最近的开放式方法利用文本提示,vi-sual提示或迅速的范式来克服这一点,但由于高计算需求或部署复合物而导致的性能和效率之间经常妥协。在这项工作中,我们介绍了Yoloe,该YOLOE在单个高效的模型中跨越了各种开放及时机制的检测和分割,实现了任何事物。对于文本提示,我们提出了可重新参数的区域文本对齐(REPRTA)策略。它通过重新参数轻巧的辅助网络来完善预处理的文本嵌入,并具有零推理和转移开销的视觉文本对齐。对于视觉提示,我们提出了语义激活的视觉提示编码器(SAVPE)。启用了解耦的语义和激活分支,以最小的复杂性带来了改进的视觉嵌入和准确性。对于迅速的场景,我们引入了懒惰的区域贡献对比(LRPC)策略。它利用大型词汇和专业嵌入中的内置来识别所有对象,避免了昂贵的语言模型。广泛的实验表明,Yoloe的出色零射击性能和可转移性具有较高的下降效率和低训练成本。值得注意的是,在LVIS上,训练成本较小,1.4倍推理加速,Yoloe-V8-S以3.5 AP超过Yolo-Worldv2-S。转移到可可时,Yoloe-V8-L可在封闭式的Yolov8-L上获得0.6 AP B,而较小的训练时间较小4倍。代码和型号可在https://github.com/thu-mig/yoloe上找到。
主要关键词